今天要介紹的這篇是做human segmentation:
1000fps human segmentation with deep convolutional neural networks
雖然有點舊了(2015),但其中一些做法還算有啟發性,
特別是有個很引人注意的標題:1000 fps
跑在K40上也只要1~2ms,論文上的結果看起來還不錯
這篇著重在加速切割方法,
他先比較了幾類人體圖像切割方法:
有於是比較早期的論文,架構還算簡單,
分別使用了三種架構,simple-segNet, Alex, VGG,
input 一張RGB彩色影像(3 x 48 x 48),
output得到一個binary map(1 x 48 x 48),也就是人體部分的Mask。
此外,若直接用原圖去做端到端的訓練運算量太大,
所以他把原圖縮小到48x48後再去訓練,得到binary mask 之後,再去放大到原本大小,
但放大後邊界會模糊,所以再去做GrabCut邊緣增強,套回原本的圖得到切割結果。
在不同架構下的準確度和速度,由於input尺寸小,
所以基本上都能達到1000fps的速度。
未來也許可試試替換成resnet或mobilenet的架構,
應該可以有不錯的效果。